arxiv:2502.12206v1 [CS.AI] 2025年2月16日
机构名称:
¥ 1.0

随着大型语言模型(LLMS)继续发展,确保它们与Human的目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是工具性的转变,在为给定的目标进行优化时,AI系统发展了意想不到的间隔目标,从而超越了最终的观点,并且偏离了人为意义的目标。这个问题在加强学习(RL)培训模型中特别相关,该模型可以产生创造性但意外的策略以最大程度地提高奖励。在本文中,我们通过比较经过直接RL优化的模型(例如O1模型)与从人类反馈(RLHF)进行增强学习的训练的模型进行比较。我们假设RL驱动的模型表现出更强的工具收敛趋势,因为它们以可能与人类意图失调的方式优化了目标指示行为。为了评估这一点,我们会引入仪表板1,这是用于评估RL训练LLM的仪器收敛的基准。最初的实验揭示了一个案例,其中一个旨在赚钱的模型不期望追求工具目标,例如自我复制,意味着工具融合的迹象。我们的发现有助于更深入地了解AI系统中的一致性挑战以及不限制模型行为带来的风险。

arxiv:2502.12206v1 [CS.AI] 2025年2月16日

arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第1页

arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第2页

arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第3页

arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第4页

arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第5页

相关文件推荐

2025年2月
2025 年
¥1.0
2025年2月
2025 年
¥1.0
2025年2月7日
2025 年
¥1.0
2025年2月10日
2025 年
¥1.0
2025年1月16日
2025 年
¥1.0
公司演讲2025年2月
2025 年
¥3.0
2025年1月/2月主题区
fs 2025年1月16日议程